Segmentation thématique : apport de la vectorisation

نویسندگان

  • Vincent Claveau
  • Sébastien Lefèvre
چکیده

This paper deals with topic segmentation of TV broadcasts using their transcription obtained by automatic speech recognition. Topic segmentation has been studied for several years, and most often the techniques proposed rely on information retrieval techniques to compute similarities between segments. In this paper, we propose a new segmentation approach inspired by mathematical morphology studies developed in the framework of image segmentation. We also show that using the similarity technique called vectorization and first developed for IR (Claveau et al., 2010) can be efficiently used in this context. This new topic segmentation technique is evaluated on two corpora of TV broadcasts on which it outperforms other existing approaches. MOTS-CLÉS : Segmentation thématique, vectorisation, ligne de partage des eaux, calcul de similarité, flux TV, plongement

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe

Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....

متن کامل

Découvrir les thèmes d'un document pour en améliorer la segmentation thématique

La segmentation thématique et l’identification des thèmes d’un document sont souvent traitées comme des problèmes séparés, même si elles relèvent toutes deux de l’analyse thématique. Dans cet article, nous proposons d’examiner comment l’identification thématique peut contribuer à améliorer la segmentation de documents lorsque celle-ci ne s’appuie que sur la récurrence lexicale. Nous présentons ...

متن کامل

Segmentation thématique de texte linéaire et non-supervisée :Détection active et passive des frontières thématiques en Français

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Approches endogène et exogène pour améliorer la segmentation thématique de documents

Topic segmentation was addressed by a large amount of work from which it is not easy to draw conclusions, especially about the need for knowledge. In this article, we propose in the same framework two methods for improving the results of a topic segmenter based on lexical reiteration. The first one is endogenous and exploits the distributional similarity of the words of a document for discoveri...

متن کامل

Un critère de cohésion thématique fondé sur un graphe de cooccurrences (Topical Cohesion using Graph Random Walks) [in French]

RÉSUMÉ Dans cet article, nous définissons un nouveau critère de cohésion thématique permettant de pondérer les termes d’un lexique thématique en fonction de leur pertinence. Le critère s’inspire des approches Web as corpus pour accumuler des connaissances exogènes sur un lexique. Ces connaissances sont ensuite modélisées sous forme de graphe et un algorithme de marche aléatoire est appliqué pou...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2011